深度学习模型已在大规模视频基准测试上取得了出色的识别结果。但是,当应用于稀有场景或物体的视频时,它们的性能很差,这主要是由于现有视频数据集的偏见。我们从两个不同的角度解决了这个问题:算法和数据集。从算法的角度来看,我们提出了空间感知的多种偏见(SMAD),它既将明确的偏见都与多种相对的对抗性训练和隐含的偏见以及与空间行动重新重量的模块相结合,从行动方面。为了消除内在的数据集偏差,我们建议OmnideBias有选择地利用Web数据进行联合培训,这可以通过更少的Web数据实现更高的性能。为了验证有效性,我们建立评估协议并对现有数据集的重新分配分配和新的评估数据集进行广泛的实验,该数据集的重点是稀有场景。我们还表明,当转移到其他数据集和任务时,辩护形式可以更好地概括。
translated by 谷歌翻译
联合学习(FL)通过汇总模型更新,以隐私的方式对分散数据进行了全球模型培训。但是,对于使用具有大量参数的预训练的语言模型(PLM)的许多自然语言处理(NLP)任务,与FL相关的沟通成本相当大。最近,迅速调整了一些不修改PLM的软提示的调音,它作为新的学习范式取得了出色的表现。因此,我们要组合两种方法,并探索在FL下迅速调整的效果。在本文中,我们提出“ FedPrompt”作为第一个工作研究促使使用FL以模型分开学习方式进行调整,并证明该研究大大降低了沟通成本,只有PLMS参数的0.01%,而准确性几乎没有降低。在IID和非IID数据分布上。这提高了FL方法的效率,同时还可以在及时调整中保护数据隐私。此外,PLMS,提示在公共平台和个人用户之间被上传和下载,因此我们试图弄清楚是否仍然只有使用后门威胁在FL场景中软提示。我们通过对FedPrompt的数据中毒进一步进行后门攻击。我们的实验表明,正常的后门攻击无法实现高攻击成功率,证明了FedPrompt的稳健性。我们希望这项工作能够促进FL的应用,并提高对可能的安全威胁的认识。
translated by 谷歌翻译
With the spread of tampered images, locating the tampered regions in digital images has drawn increasing attention. The existing image tampering localization methods, however, suffer from severe performance degradation when the tampered images are subjected to some post-processing, as the tampering traces would be distorted by the post-processing operations. The poor robustness against post-processing has become a bottleneck for the practical applications of image tampering localization techniques. In order to address this issue, this paper proposes a novel restoration-assisted framework for image tampering localization (ReLoc). The ReLoc framework mainly consists of an image restoration module and a tampering localization module. The key idea of ReLoc is to use the restoration module to recover a high-quality counterpart of the distorted tampered image, such that the distorted tampering traces can be re-enhanced, facilitating the tampering localization module to identify the tampered regions. To achieve this, the restoration module is optimized not only with the conventional constraints on image visual quality but also with a forensics-oriented objective function. Furthermore, the restoration module and the localization module are trained alternately, which can stabilize the training process and is beneficial for improving the performance. The proposed framework is evaluated by fighting against JPEG compression, the most commonly used post-processing. Extensive experimental results show that ReLoc can significantly improve the robustness against JPEG compression. The restoration module in a well-trained ReLoc model is transferable. Namely, it is still effective when being directly deployed with another tampering localization module.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
国家估计是自主系统的重要组成部分。已显示整合超宽带(UWB)技术可以纠正长期估计漂移并绕过环路闭合检测的复杂性。但是,机器人技术中很少有作品采用UWB作为独立的状态估计技术。这项工作的主要目的是仅使用UWB范围测量结果研究平面姿势估计,并研究估计器的统计效率。我们证明了两步方案的出色属性,该方案说,我们可以通过高斯 - 纽顿迭代的一步来完善一致的估计器在渐近上有效。基于此结果,我们设计了GN-uls估计器,并通过模拟和收集的数据集进行评估。GN-uls在我们的静态数据集上达到毫米和次级水平的准确性,并在我们的动态数据集中达到厘米和学位水平的精度,从而提出了仅将UWB用于实时状态估计的可能性。
translated by 谷歌翻译
RGB-D对象跟踪最近引起了广泛的关注,这得益于视觉和深度通道之间的共生能力。但是,鉴于有限的注释RGB-D跟踪数据,大多数最先进的RGB-D跟踪器是高性能RGB的简单扩展程序,而无需完全利用深度通道中深度通道的潜在潜力离线训练阶段。为了解决数据集缺乏问题,本文发布了一个名为RGBD1K的新的RGB-D数据集。 RGBD1K包含1,050个序列,总计约250万帧。为了证明对较大的RGB-D数据集的培训的好处,尤其是RGBD1K,我们开发了一个基于变压器的RGB-D跟踪器,名为SPT,是使用新数据集的未来视觉对象跟踪研究的基线。使用SPT跟踪器进行的广泛实验的结果表明,RGBD1K数据集的潜力可以提高RGB-D跟踪的性能,从而激发了有效跟踪器设计的未来发展。数据集和代码将在项目主页上提供:https://will.be.available.at.at.this.website。
translated by 谷歌翻译
在本文中,我们介绍了全景语义细分,该分段以整体方式提供了对周围环境的全景和密集的像素的理解。由于两个关键的挑战,全景分割尚未探索:(1)全景上的图像扭曲和对象变形; (2)缺乏培训全景分段的注释。为了解决这些问题,我们提出了一个用于全景语义细分(Trans4Pass)体系结构的变压器。首先,为了增强失真意识,Trans4Pass配备了可变形的贴片嵌入(DPE)和可变形的MLP(DMLP)模块,能够在适应之前(适应之前或之后)和任何地方(浅层或深度级别的(浅层或深度))和图像变形(通过任何涉及(浅层或深层))和图像变形(通过任何地方)和图像变形设计。我们进一步介绍了升级后的Trans4Pass+模型,其中包含具有平行令牌混合的DMLPV2,以提高建模歧视性线索的灵活性和概括性。其次,我们提出了一种无监督域适应性的相互典型适应(MPA)策略。第三,除了针孔到型 - 帕诺amic(PIN2PAN)适应外,我们还创建了一个新的数据集(Synpass),其中具有9,080个全景图像,以探索360 {\ deg} Imagery中的合成对真实(Syn2real)适应方案。进行了广泛的实验,这些实验涵盖室内和室外场景,并且使用PIN2PAN和SYN2REAL方案进行了研究。 Trans4Pass+在四个域自适应的全景语义分割基准上实现最先进的性能。代码可从https://github.com/jamycheung/trans4pass获得。
translated by 谷歌翻译
姿势估计对于机器人感知,路径计划等很重要。机器人姿势可以在基质谎言组上建模,并且通常通过基于滤波器的方法进行估算。在本文中,我们在存在随机噪声的情况下建立了不变扩展Kalman滤波器(IEKF)的误差公式,并将其应用于视觉辅助惯性导航。我们通过OpenVINS平台上的数值模拟和实验评估我们的算法。在Euroc公共MAV数据集上执行的仿真和实验都表明,我们的算法优于某些基于最先进的滤波器方法,例如基于Quaternion的EKF,首先估计Jacobian EKF等。
translated by 谷歌翻译
通过移动激光扫描和图像构建有色点的云是测量和映射的基本工作。它也是为智能城市建造数字双胞胎的重要先决条件。但是,现有的公共数据集要么是相对较小的规模,要么缺乏准确的几何和彩色地面真理。本文记录了一个名为Polyu-BPComa的多功能数据集,该数据集可独特地定位于移动着色映射。该数据集在背包平台上包含3D激光雷达,球形成像,GNSS和IMU的资源。颜色检查器板在每个调查区域粘贴,因为目标和地面真相数据是由先进的陆地激光扫描仪(TLS)收集的。 3D几何信息和颜色信息可以分别在背包系统和TLS产生的有色点云中恢复。因此,我们提供了一个机会,可以同时为移动多感官系统对映射和着色精度进行基准测试。该数据集的尺寸约为800 GB,涵盖室内和室外环境。数据集和开发套件可在https://github.com/chenpengxin/polyu-bpcoma.git上找到。
translated by 谷歌翻译
姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务,最高为7DOF,用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望,但它们要么依赖于启发式定义的对应关系,要么易于局部最小值。我们提出了一个可区分的相关(DPC)求解器,该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时,我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言,特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式,将翻译转换和从旋转中脱钩。接下来,使用DPC求解器在频谱中独立有效地估计旋转,比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上,以不同的输入方式,包括2D Bird的视图图像,3D对象和场景测量以及医疗图像。实验结果表明,DCPN ++的表现优于经典和基于学习的基础线,尤其是在部分观察到的异质测量方面。
translated by 谷歌翻译